In [18]:
fileName='book.txt'
Ahora vamos a eliminar todo aquello que no se consideren cadenas de texto válidas. Para ello definiremos una función que elimine aquello que no queremos contabilizar.
In [19]:
import re
def removePunctuation(text):
return re.sub('[^a-z| |0-9]', '', text.strip().lower())
Ahora vamos a crear el primer RDD del contenido del libro.
In [21]:
shakespeareRDD = (sc
.textFile(fileName, 8)
.map(removePunctuation))
In [22]:
shakespeareRDD.take(4)
Out[22]:
In [23]:
print '\n'.join(shakespeareRDD
.zipWithIndex() # to (line, lineNum)
.map(lambda (l, num): '{0}: {1}'.format(num, l)) # to 'lineNum: line'
.take(15))
In [ ]: